PROYECTO FINAL 

MYSTERYLAND 



ESFOT 

ESCUELA DE FORMACION 
DE TECNOLOGOS 



OBJETIVOS 


OBJETIVO GENERAL 

Realizar la recolección y el análisis de una gran cantidad de datos 
acerca del evento musical Misteryland, a realizarse en el mes de 
Agosto, recopilados a través de tweets. 

OBJETIVOS ESPECÍFICOS 

Establecer funciones del equipo de trabajo. 

Recopilar tweets acerca del evento musical Misteryland. 
Realizar la indexación a través de los nodos. 

Realizar consultas Map Reduce. 

Filtrar y analizar los datos. 

Concluir los resultados analizados. 


DEFINICIÓN DEL CASO DE ESTUDIO 


El proyecto a realizarse se enfoca en el análisis de datos 
obtenidos, mediante la red social Twitter durante el transcurso 
de la realización del festival Mysteryland el 26 y 27 de Agosto 
del 2017. En el almacén de datos unificado se almacenará los 
datos recolectados de los diferentes países los datos tendrá 
diferentes origen (diferentes ordenadores), por el cual la 
replicación de las bases será necesario para poder obtener una 
base unificada que nos permita generar informes. 


FUNDAMENTO TEÓRICO 


En la actualidad el uso de las redes sociales como: Twitter, 
Linkedln, Instagram, Facebook, ha permitido que los 
individuos puedan compartir interés o actividades. El presente 
proyecto utilizó la red social Twitter, para poder recoger 
tweets con el #Mysteryland, contando al momento con 
224379 de tweets. 


RECURSOS Y HERRAMIENTAS 


Elasticsearch 
CouchDB 
Cerebro 
Bouding Box 
Kibana 
Logstash 
❖ Curl 

App Twitter 
Sublime text 


ARQUITECTURA 





EXTRACCION DE DATOS 

La extracción de datos está destinada a mostrar cualquier correlación 
dentro del volumen de datos del sistema de información con el fin de 
detectar la tendencia de los datos. 


O | i Seguro | https://apps.twitter.com 

# Application Management 


Twitter Apps 


O 

O 


MiPriApp 

mi primer aplicación 


BSC_2106 

Recolección de tweets del partido 


Create New App 


O 


Misteryland 


Recolección de tweets para el evento misteryland 













EXTRACCIÓN DE DATOS 




Detaíls Settings Keys and Access Tokens Permissions 

Application Settings 

Keep the "Consumer Secrer a secret. This key shoufd never be human-readable sn your 
appíication. 

Consumer Key (API Key) w721sk5kmzyH7ZZf¡SU-fPjllDI 

Consumer Secret (API 1ÜL5sNwlTAXoSyKZh9izpAL19ALJUaPRWt>kETIrBh8Q2|YWoEd 

Secret) 

Access Level Read and write (modiíy app permissions) 

Owner KerlyTonSita 

Owner ID 


872556070471913473 














EXTRACCION DE DATOS 



tweets_cu¡dades,py 
^ tweets_ecuador,py 
tweets_m¡steryland.py 


twitterStream. filter( Loeatians=[- 80.3111, 2.3738, 79.5427, 1.8014]) 

twitterStream . filten ( track ['electrónica', 'música', ' d j ' , 'baile', 

'dance', 'electronic' , "music', 'evento' 

'mysteryland' , 'tomorowland' ] ) 
l 




EXTRACCION DE DATOS 


Ñame 

Size 

Number of Documente 

Updaie Seq 

_repl¡cator 

4.1 KB 

1 

1 

_users 

4.1 KB 

1 

1 

ecuador 

102.7 MB 

15750 

15750 

miste ryland k 

1.0 GB 

224379 

224380 

Showing 1-4 oí <- 

4 databases 

PieviousPage | 

Rows per page: id t 

Next Page 










EXTRACCIÓN DE DATOS 


HÜ ::iiarC A* ¡ ndc,vf system Z2'\c md. exe I 1=1 1¡ E | 23 


Microsoft Windows [Versión 10.0.14393] 

(c) 2016 Microsoft Corporation. Todos los derechos reservados. 

C:\Users\usuario>C: \Users\usuario\Documents\BigData\curl-7 .53.l\src 

"C: \Users\usuario\Documents\BigData\curl-7 .53.l\src" no se reconoce como un comando interno o externo, 
programa o archivo por lotes ejecutable. 


C:\Users\usuario>cd C: \Users\usuario\Documents\BigData\curl-7 .53.l\src 


C: \Users\usuario\Documents\BigData\curl-7 .53.l\src>curl 
1 docs?include docs=true > datos.json 



GET http://127.0.0.1:5904/misteryland k/ all 


100 54.0M 


Upload 
0 - 


Spent Left Speed 
0:00:03 14.7M 


C: \Users\usuario\Documents\BigData\curl-7 .53.l\src> 










EXTRACCION DE DATOS 

• Crear un archivo logstash.conf y agregar la 
siguiente configuración: 

input{ 

couchdb_changes{ 

db=>”misteryland_k” 

> 

} 

output{ 

elasticsearch{ 

host=>”127.0.0.1:9200” índex => ”misteryland” 

> 


EXTRACCIÓN DE DATOS 



<- c © localhost:9000/#/overview?host=http:%2F%2Flocalhost:9200%2F 


5D ☆ I 

th overview S nodes Qf rest ^ more ▼ 

O 5sec ▼ 

http://1ocalhost:9200/ jfr 


filter nodes by ñame 



1-3 of 5 


/ 

▼ 

clientes w 

shards: 5 * 2| docs: 40 | size: 99.99KB 

index3 w 

shards: 1 * 1| docs: 2 | size: 7.25KB 

misteryland w 

shards: 1 * 1| docs: 134.502 | size: 751.97MB 

A 11 unasstgned shards 

show on/y affected indices 

□ □□□□ 



★ keriy 

Q 102.168.0.107 

n 

heap 

disk 

cpu 

load 

□ □□□□ 

□ 

□ 








EXTRACCION DE DATOS 

E 


O localhost:9000/#/nodes?host=http:%2F%2Flocalhost:9200%2F 


•J & overview S nodes QT rest '?■ more 


O 


C 5sec ▼ http://localhost:9200/ jft 


filter nodes by ñame 


□ ★ master Q Sdata Q ingest Q Ocoordinating 


ñame A 

load 

process cpu % 

heap usage % 

disk usage % 

uptime 

★ kerty 

a 

tí 

JVM: 1_8.0_141 

ES: 5.5.1 


32% 

os cpu: 71% 

30% 

used: 617.3mb 
max: 1 9gb 

80% 

available: 18.84GB 

total: 92.29GB 

9min 





ANALISIS DE LA INFORMACION 


C © localhost:5601/app/kibana#/management/kibana/index?_g=0 
Management / Kibana 

Index Patterns Saved Objects Advanced Settings 

# misteryland 
texto 
twitter 


> 

4 



Configure an Índex pattern 



ln order to use Kibana you must configure at least one index pattern. Index patterns are used to 
identify the Elasticsearch index to run search and analytics against. They are also used to configure 
fields. 

Index ñame or pattern 

misteryland 

Patterns allow you to define dynamic index ñames using * as a wildcard. Example: logstash-* 

Time Filter field ñame O efresh fields 


@timestamp 


Use event times to create index ñames [DEPRECATED] 













ANÁLISIS DE LA INFORMACIÓN 



O © localhost:5601/app/kibana#/management/kibana/indices/misteryland?_g=0&_a=(tab:indexedFields) 





Management / Kibana 

Index Patterns Saved Objects Advanced Settings 


+ Create Index 


it misteryland 

texto 

twitter 


★ misteryland * - Q 


GOTme Fllter fleld ñame: @timestamp 


This page lists every field in the misteryland index and the field's associated core type as recorded 
by Elasticsearch. While this list allows you to view the core type of each field, changing field types 
must be done using Elasticsearch’s Mapping API % 


fields (1007) 


scripted fields (0) 


Q, Filter 


source filters (0) 


All field types ▼ 


format searchable aggregatable exelude 


ñame 

type 

Oí 

Oí 

@timestamp 0 

date 

✓ 

>/ 

@version 

string 

✓ 


@version.keyword 

string 

V 


Jd 

string 



Jndex 

string 

>/ 

•s 

_score 

number 



_source 

_source 



-type 

string 

✓ 

✓ 


























ANALISIS DE LA INFORMACION 



C © localhost:5601/app/k¡bana#/d¡scover?_g=(refreshlntGrval:(d¡splay:Off,pause:!f,value:0).time:(from:now%2Fy r mode:qu¡ck,to:now... 


New Save Open Share < OThisyear > 

Uses lucene query syntax 



© 

o 

O 


Selected Fields 


Available Fields o 


O @t¡mestamp 


January 1 st 2017, 00:00:00.000 - December 31 st 2017, 23:59:59.999 — Aut0 


@timestamp per week 


► August 16th 2017, 09:35:22.929 doc.retweeted_status.user.description: Somos una compañía dedicada 
a la promoción de importantes figuras del entretenimiento en Ecu 
ador y el mundo firmados por Sony |usic . 

doc.retweeted_status.user.ñame: Sony Vusic Ecuador @timestamp: Au 
gust 16th 2017, 09:35:22.929 doc_as_upsert: true ^versión: 1 



August 16th 2017, 09:35:21.681 doc.text: New this weekend! Follow me in: FB:https ://t. c 

o/q9m4MP26NK SD:https ://t. co/rgNiXvnXzN You can found me in @Spo 
tify @Deezer ©AppleMusic @timestamp: August 16th 2017, 09:35:21. 


t doc.coordin... 








ANALISIS DE LA INFORMACION 


Visualize / New 


Select visualizaron type 

Q Seareh visualization types... 
Basic Charts 






















ANÁLISIS DE LA INFORMACIÓN 




Descendió 
















RESULTADOS OBTENIDOS 


Caso de estudio 1 



En la búsqueda de la EPN en las redes 
sociales no se pudo obtener datos 
relacionados y podemos concluir que la EPN 
no tiene mucha presencia en las redes 
sociales relacionado al evento Misteryland 


C ® I oc a I h ost 5 601 /a p p/ki ba na#/d i scove r?_g=(refresh I nterva I :(d ispIay.OFf, pau se:! f,va I u e:0), ti m e: [fro m:now%2 Fy, m od e: q u i c k, to: n ow %2 Fy}) 6¿_a.., 


54 hits 

escuela politécnica 

Add a filter + 


New Save Open Síhare < O This year > 

Uses lucene querysyntax I 


© 

Ld misteryland 


Se'lected Fields 


Available Fields 

© @timestamp 
t ©versión 
t Jd 
t Jndex 

# _score 
t jtype 

? doc.contribut... 
? doc.coordinat... 
t doc.created_at 

# doc.display_te... 
? doc.entities.h... 


January 1 st 201 1 , 00:00:00.000 - Decerri ber 31 st 2017, 23:59:59.999 — Au to 



> August 16th 2017, 09:35:21.253 


t August 16th 2017, 09:35:14.277 


doc.retweeted_status.user.description: Twitter oficial de la Universidad P 
oli técnica Salesiana del Ecuador. La educación es cuestión del corazón. 
#Vi veUPS ^ ^timestarip: August 16th 2017, 09:55:21.253 doc_as_upsert : tr 
ue Versión: 1 doc.in_reply_to_statu5_id_str: 

doc .in_reply_ t o_statús_id: - doc.created_at : Wed Aug 09 21:50:13 -i-OOOO 2 

doc.text: #Texas la nueva 1 ey q permite a los alumnos llevar armas a la 
escuel^ that's why mi hija sigue en ecuador https://t . co/CCMi2w600G 
^timestainp: August 16th 2017, 09:35:14.277 doc_as_upsert : true 
■pversion: 1 doc.extended_eitifies.media: { "displ ay_url 11 : ”pi c.twitter.co 


















RESULTADOS OBTENIDOS 


Caso de estudio 2 



En este caso se analizan el top 10 de 
los twitteros de cinco ciudades de 
Ecuador. 


TOP10 LOJA 


En el top 10 de los twiteros en la cuidad de 
Loja se encontró al mayor twittero “Farvega” 
con 17 tweets en menos de un mes. Según 
el análisis realizado Farvega es una persona 
que tweetea noticias acerca de las 
actividades de gobierno. 


f kibana 


J* DevTools 

Management 



Q Collapse 











VISUALIZACIÓN DE LA INFORMACIÓN 




- ANÁLISIS 


INICIO 


MYSTERYLAND 


-) C ® filG:///C:/Users/usuario/Dropbox/BasGsTon/Proy0cto/basGS%2Omultid¡mGns¡onalGs/¡ndex.html 


FESTIVAL MYSTERYLAND 

experiencia inolvidable 




CONCLUSIONES 


Existen eventos que contratan publicidad en redes sociales, los cuales realizan 
marketing continuamente, la promoción se realiza cada segundo, estos datos 
entorpecen el análisis ya que para el análisis únicamente se necesita datos que 
fueron realizados por personas porque si no tendríamos un análisis incorrecto y 
nos alejaríamos del objetivo del análisis. 

Al recolectar los datos, pudimos contar con un número elevado de tweets de las 
personas que realizaron un hashtag a la página de Mysteryland, y por los cuales 
pudimos realizar un Mapreduce y con ello logramos determinan el país que más 
tweets realizaba al día. Además por medio de Kibana se obtuvo una visualización 
del usuario que constantemente realiza hashtag. 

La indexación de la base con la herramienta elasticsearch es el proceso previo 
para la utilización del LMNZ Cerebro, en este punto se recomienda realizar una 
indexación de datos con un maping de los datos, para no tener problemas con 
los parámetros. 





RECOMENDACIONES 


Se recomienda que al momento de enlazar la base de datos 
CouchDB con la herramienta elasticsearch, se utilice un maping 
para la información, aunque esto no es obligatorio, se lo debe 
hacer para que todos los datos se han consistentes y no tener 
datos que tengan parámetros sin llenado, con el maping se le 
asignara un valor por default según se ha el caso. 

Para trabajar con las herramientas mencionada en este informe, 
se debe de tener en cuenta las versiones de cada herramienta, 
ya que en algunas herramientas no son compatibles con algunas 
versiones. De las herramientas. 

Se recomienda no realizar el análisis con la información que 
tiene como origen "publicidad", ya que tendríamos un análisis 
alejado del objetivo. 



Gracias 




Realizado por: 

Katherine Lasluisa 
Kerly Naranjo 
Ricardo Sinchiguano 


